Un programma che attraversa automaticamente la struttura ipertestuale del
World Wide Web recuperando un documento e successivamente recuperando in
maniera ricorsiva tutti i documenti che vi sono collegati. La ricorsività
non implica la presenza di un particolare algoritmo di attraversamento.
Anche qualora il robot applicasse qualche genere di regola alla selezione
dei documenti che deve visitare e allÆordine con cui li deve visitare,
distanziando le visite su un lungo periodo di tempo, resterebbe pur sempre
un robot. I normali browser non sono robot in quanto vengono gestiti
dallÆuomo e non recuperano i documenti referenziati in modo automatico
(lÆautomatismo si limita in questo caso al recupero delle immagini che
sono collegate alla pagina HTML che viene visualizzata).
Altri nomi usati per questo genere di programmi sono Web wanderer
(vagabondo), Web crawler (liberamente traducibile con millepiedi) o spider
(ragno), tuttavia questi altri nomi suggeriscono lÆidea che il programma
viaggi sulla rete, come se fosse un virus, quando invece si limita a
recuperare documenti da questa, depositandoli nella macchina sulla quale
opera. Il lavoro dei robot viene utilizzato dai motori di ricerca per
recuperare documenti e indirizzi di siti (URL - Uniform Resource Locator)
che soddisfano la richiesta formulata dallÆutente. I robot possono
aumentare sensibilmente il traffico sulla rete e soffrono del problema
che, in virtù della loro costante ricerca metodica, accumulano unÆenorme
quantità dÆinformazioni non e perciò una successiva ricerca nel loro
database può produrre risposte in eccesso. Vanno bene quando si cerca
qualcosa di difficile reperibilità o non ci si preoccupa di dover
esaminare un gran numero di risposte. Esistono alcuni servizi di ricerca
commerciali basati su robot che offrono una catalogazione degli argomenti,
così da meglio focalizzare la ricerca.
Ogni robot usa un metodo diverso per attraversare il Web, ma quasi tutti
fanno riferimento a una lista storica di URL, in particolare a quei
documenti che contengono al loro interno un gran numero di riferimenti ad
altri siti, ai documenti che segnalano tutte le novità su Internet e ai
più popolari tra i servizi disponibili sulla Rete.
Nella maggior parte dei casi è anche possibile segnalare manualmente la
nascita di un nuovo sito: il robot inserirà lÆURL relativo in coda e, non
appena pronto, verrà a visitarlo. Una volta arrivato, passerà in rassegna
in vari documenti indicizzandone il titolo e memorizzandolo nel proprio
database. Spesso vengono anche indicizzati i primi paragrafi del documento
e talvolta lÆintero documento, con diversi pesi assegnati alle sue varie
parti, identificate attraverso la decodifica dei marcatori HTML (si
predilige lÆimpiego delle anchor vale a dire dei puntatori ipertestuali
ad altri documenti). Il marcatore META, usato da HTML versione 3.0 e
invisibile sulla pagina utente, contiene informazioni che aiutano a
classificare il contenuto del documento (autore, categorie di argomenti
trattate) e viene indicizzato da alcuni robot.
Un robot mal progettato può generare un elevato volume di traffico sulla
rete e sul server, mandando questÆultimo in sovraccarico e magari anche in
tilt. Un qualsiasi errore del progettista si propaga su tutta la rete in
modo automatico e per contenere i possibili effetti dannosi è stato
definito un sistema per limitare questi rischi: robot exclusion standard.
|